先前关于安全加强学习的工作(RL)研究了对动态(aleatory)随机性的风险规避,并隔离地模拟了不确定性(认知)。我们提出并分析一个新框架,以共同对有限马和折现的无限马MDP中的认知和差异不确定性相关的风险进行建模。我们称此框架结合了规避风险和软性的方法RASR。我们表明,当使用EVAR或熵风险定义风险规定时,可以使用具有时间依赖性风险水平的新的动态程序公式有效地计算RASR中的最佳策略。结果,即使是在无限 - 亨特折扣环境中,最佳的规避风险政策也是确定性但依赖时间的。我们还表明,具有平均后验过渡概率的特定RASR目标减少到规避风险的RL。我们的经验结果表明,我们的新算法始终减轻EVAR和其他标准风险措施衡量的不确定性。
translated by 谷歌翻译